3.9 A Note About Feature Selection During Model Selection
データの正規化や特徴量選択
we typically perform these operations inside the k-fold cross-validation loop in contrast to applying these steps to the whole dataset upfront before splitting the data into folds
「私たちは典型的には、フォールドに分ける前にデータセット全体に正規化や特徴量選択や適用するよりも、k交差検証のループの内側でこれらの操作を実施する」
📝 まとめて1回ではなく、個々のモデルごとに実施
交差検証ループの内側での特徴量選択は過学習となるbiasを減らす
テストデータの情報が訓練ステージにしみ出さないから
(全データを正規化・特徴量選択するとテストデータの情報も使っているということ!)
しかし、交差検証ループの内側での特徴量選択は、過度に悲観的な見積もりに導くかもしれない
訓練に使えるデータが少ないため